from transformers import AutoTokenizer

# 选择一个预训练模型，这里用 BERT 英文基础版
model_name = "bert-base-uncased"

# 加载分词器（第一次运行会自动下载并缓存到本地）
tokenizer = AutoTokenizer.from_pretrained(model_name)

# 要处理的文本
text = "Hello Hugging Face!"

# 编码：文本 -> token ID
encoded = tokenizer(
    text,
    padding="max_length",   # 自动补齐到最大长度
    truncation=True,        # 超长则截断
    max_length=10,          # 最大序列长度
    return_tensors="pt"     # 返回 PyTorch 张量
)

# 打印编码结果
print("编码后的张量：")
print(encoded)

# 解码：token ID -> 文本
decoded = tokenizer.decode(encoded["input_ids"][0], skip_special_tokens=True)
print("\n解码回文本：")
print(decoded)

#AutoTokenizer分词器就是 把自然语言转换为 token ID（编码），再还原成文本（解码）